Các pliops mở rộng các cửa sổ bối cảnh của AI với máy gia tốc dựa trên NAND 3D-có thể tăng tốc độ công việc suy luận nhất định lên đến tám lần
Khi các mô hình ngôn ngữ trở nên phức tạp hơn và kích thước ngữ cảnh mở rộng, bộ nhớ băng thông cao HBM gắn GPU trở thành nút thắt, buộc hệ thống phải tính toán lại dữ liệu không còn phù hợp với HBM trên bo mạch. Pliops đã giải quyết vấn đề này bằng thiết bị XDP LightningAI và phần mềm FusIOnX, cho phép lưu trữ ngữ cảnh đã tính toán trước trên SSD nhanh và truy xuất ngay khi cần thiết, theo báo cáo của Blocks and Files.
Công ty cho biết giải pháp của họ cho phép đạt tốc độ gần như HBM và có thể tăng tốc một số quy trình suy diễn lên tới tám lần. Trong quá trình suy diễn, các mô hình ngôn ngữ tạo ra và tham chiếu dữ liệu khóa-giá trị để quản lý ngữ cảnh và duy trì tính liên kết trong các chuỗi dài. Thông thường, thông tin này được lưu trữ trong bộ nhớ của GPU, nhưng khi ngữ cảnh trở nên quá lớn, các mục cũ sẽ bị xóa, buộc hệ thống phải tính toán lại nếu cần những mục đó, dẫn đến tăng độ trễ và tải cho GPU.
Để loại bỏ các thao tác dư thừa, Pliops đã giới thiệu một tầng bộ nhớ mới được hỗ trợ bởi máy XDP LightningAI, một thiết bị PCIe quản lý việc di chuyển dữ liệu key-value giữa các GPU và hàng chục SSD hiệu suất cao. Thiết bị này sử dụng ASIC XDP được thiết kế riêng và phần mềm FusIOnX để xử lý các thao tác đọc/ghi một cách hiệu quả, đồng thời tích hợp với các khung phục vụ AI như vLLM và Nvidia Dynamo.
Thẻ này không phụ thuộc vào GPU và có thể hỗ trợ cả cấu hình máy chủ độc lập lẫn nhiều GPU. Trong các triển khai nhiều nút, nó còn xử lý việc định tuyến và chia sẻ dữ liệu đã lưu giữa các công việc hoặc người dùng khác nhau, cho phép tái sử dụng ngữ cảnh liên tục ở quy mô lớn. Kiến trúc này cho phép các hệ thống suy diễn AI hỗ trợ ngữ cảnh dài hơn, khả năng đồng thời cao hơn và sử dụng tài nguyên hiệu quả mà không cần mở rộng phần cứng GPU.
📢 Liên hệ quảng cáo: 0919 852 204
Quảng cáo của bạn sẽ xuất hiện trên mọi trang!
Thay vì mở rộng bộ nhớ HBM thông qua các GPU bổ sung, Pliops cho phép hệ thống giữ lại nhiều lịch sử ngữ cảnh hơn với chi phí thấp hơn, mà vẫn giữ hiệu suất gần như tương đương. Điều này giúp phục vụ các mô hình lớn với độ trễ ổn định, ngay cả trong điều kiện khắt khe, đồng thời giảm tổng chi phí sở hữu cho hạ tầng AI.
Hình ảnh: Pliops. Mặc dù 24 SSD PCIe 5.0 cung cấp băng thông 336 GB/s, vẫn thấp hơn nhiều so với 3.35 TB/s của H100, nhưng việc không cần tính toán lại dữ liệu nhiều lần giúp cải thiện hiệu suất đáng kể so với các hệ thống không có thiết bị XDP LightningAI và phần mềm FusIOnX. Theo Pliops, giải pháp của họ tăng gấp đôi băng thông cho một triển khai vLLM điển hình.
Tăng khả năng xử lý truy vấn của hệ thống từ 5 đến 8 lần mà không cần tăng yêu cầu phần cứng GPU. Hãy theo dõi Toms Hardware trên Google News để nhận tin tức, phân tích và đánh giá mới nhất. Nhớ nhấn nút Theo dõi.
Nguồn: www.tomshardware.com/pc-components/ssds/pliops-expands-ais-context-windows-with-3d-nand-based-accelerator-can-accelerate-certain-inference-workflows-by-up-to-eight-times